#caja negra

Meta-Optimización con Ensambles Adaptativos para Equilibrio Robustez-Precisión

AdaE-SAEA: algoritmo evolutivo con ensambles adaptativos y RL para equilibrar robustez y precisión. Mejora rendimiento en problemas reales.

2026-06-02 · 2 min

Descifrando el razonamiento latente: intervención guiada por interpretabilidad

Descubre cómo intervenir en el razonamiento latente de los LLM para mejorar su precisión sin actualizar parámetros. Guía basada en interpretabilidad.

2026-06-02 · 2 min

VERA: Marco de inferencia variacional para jailbreaking de LLMs

Descubre VERA, un framework de inferencia variacional que genera prompts adversariales para identificar vulnerabilidades en LLMs sin reoptimización.

2026-06-02 · 1 min

Seguridad en LLMs caja negra: Alineación mediante optimización restringida

Alinea LLMs de caja negra en inferencia usando optimización restringida y teoría de juegos para balancear seguridad y utilidad.

2026-06-02 · 2 min

Monitoreo Constitucional de Caja Negra para Engaños en Agentes LLM

Descubre cómo los monitores constitucionales de caja negra detectan engaños en agentes LLM usando datos sintéticos. Resultados sobre generalización y límites.

2026-06-02 · 2 min

El conjunto de datos defectuoso detrás de la ética de la IA moderna

Descubre cómo el conjunto de datos defectuoso de la ética provoca fallos en la IA y por qué necesitamos un nuevo modelo axiomático aditivo.

2026-06-02 · 3 min

DiscourseFlip: Manipulación indirecta de opinión en RAG

DiscourseFlip: un ataque de manipulación de opinión a nivel de discurso en RAG que evade defensas actuales. Conoce sus implicaciones.

2026-06-02 · 2 min

TN-SHAP-G: Red tensorial para Shapley en gráficos

Descubre TN-SHAP-G: calcula valores Shapley en gráficos usando redes de tensores, sin Monte Carlo. Explicabilidad eficiente para modelos complejos.

2026-06-02 · 3 min

Selección de región de confianza basada en BAI para optimización bayesiana

Descubre cómo la identificación del mejor brazo (BAI) mejora la optimización bayesiana en funciones multimodales, acelerando la convergencia al óptimo global.

2026-06-01 · 2 min

Acordes Geométricos Latentes para Ataques Adversarios Eficientes

Descubre cómo los Acordes Geométricos Latentes (LGC) optimizan ataques adversarios con alta fidelidad visual y mínimas perturbaciones. SSIM > 0.99 y LPIPS < 0.01.

2026-06-01 · 2 min

Indistinguibilidad conductual acotada para destilación de LLM

¿Es suficiente la similitud semántica para destilar LLMs? Evaluamos indistinguibilidad conductual con adversarios y consultas acotadas. Resultados clave con Qwen y Llama.

2026-06-01 · 3 min

Añadí una caja negra de 71 líneas a mi agente de Python, luego consulté la caída de $200 con DuckDB

Añadí una caja negra de 71 líneas a mi agente Python y consulté una caída de $200 con DuckDB. Aprende a integrar y optimizar consultas.

2026-05-31 · 3 min

KBF: El límite del conocimiento como huella para la auditoría de modelos de lenguaje y API de caja negra

2026-05-29 · 2 min

Entrenamiento de monitores deliberativos para la detección de planes en caja negra

Capacitación de monitores deliberativos para detectar planes en caja negra. Aprende técnicas esenciales de interpretabilidad y seguridad en IA.

2026-05-29 · 3 min

Diseccionando la caja negra: Análisis a nivel de circuito de la detección de vulnerabilidades en LLM

2026-05-29 · 2 min

MacGregor Registrador de Datos de Viaje (VDR) G4e

2026-05-28 · 3 min

Limitación fundamental en la explicación de la IA

2026-05-28 · 2 min

Ataques de inferencia de pertenencia en caja negra sobre los datos de preentrenamiento de modelos de generación de imágenes

Ataques de inferencia de pertenencia en caja negra sobre datos de preentrenamiento de modelos de generación de imágenes: análisis de riesgos y vulnerabilidades.

2026-05-27 · 1 min